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@) Verfahren zum Ermlttein und Klassifizieren von Storgerauschtypen 

@ Mit einer fur die Spracherkennung geetgneten Anordnung 
soli bei relativ geringem Speicher- und Rechneraufwand 
zunachst ein Gerausch eindeutig oder annahernd bestimmt 
werden. Das dabei erzielte Ergebnis soil zur Optimierung 
einer Spracherkennung oder zur Erzeugung von Schaltbe- 
fehlen dlenen. 

Es wird zunachst ein Standardcodebuch erstellt, welches die 
Referenzmuster von SprachauSerungen ohne Storgerausch 
aufnimmt. Danach werden Sprachau&erungen zusammen 
mit verschiedenen Storgerauschtypen einzetn trainiert, wo- 
bei jeweils Merkmalsvektoren erzeugt werden, die mit im 
Standardcodebuch vorhandenen Merkmalsvektoren vergli- 
chen werden. Die dabei entstehenden Haufigkeitsverteilun- 
gen der Merkmalsvektoren werden In einem Indexspeicher 
abgelegt. Die im Indexspeicher abgelegten Hauftgkeitsver- 
teilungen der Indizes von Merkmalsvektoren werden dann 
mit den Indizes von Merkmalsvektoren aus der aktuell 
eingegebenen, mit einem Storgerauschtyp behafteten 
SprachauBerung vergiichen. Wenn sich dabei ein Extrem- 
wert ergibt, so ist ein Storgerauschtyp gefunden worden. 
Das dabei entstehende Signal kann zu einer genaueren 
Spracherkennung oder zur Erzeugung von Schaltbefehlen 
dienen. 
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Beschreibung 

Die Erfindung betrifft ein Verfahren zum Ermittein und Klassifizieren von Storgerauschtypen unter Anwen- 
dung von fur die Sprachanalyse bekannten Verfahren nach dem Oberbegriff des Paten tanspruchs 1. 
5 In einem Fachbericht nnit dem Titel "Einzelwort-Erkennung in gerauschvoller Umgebung", der in einem 
Tagungsband zur Konferenz Qber Sprachverarbeitung unter ungunstigen Bedingungen (Cannes-Mandelieu, 
vom 10. bis 13. Nov. 1992; ISSN 1018-4554) ab Seite 215 abgedruckt ist, wird ein Verfahren beschrieben, womit 
erne Spracherkennung auch dann ermoglicht wird, wenn Gerausche auftreten. Unter Anwendung der bekannten 
Vektorquantisierung wird dabei fur jedes spezifische Gerausch in einer Trainingsphase ein Satz von '^erborge- 
10 nen Markov-Modellen" erzeugt und abgespeichert Beim Erkennen einer mit Gerausch behafteten SprachauBe- 
rung muB dann eine Vielzahl von Vektorquantisierern vorgesehen werden. um die verschiedenen Markov-Mo- 
delle ansteuern zu konnen, damit dasjenige herausgefunden werden kann, welches die besten Erkennungsergeb- 
nisse hefert. Wie auf Seite 216 beschrieben wird. ist dazu eine sehr hohe Rechnerleistung erforderlich und es 
konnen nur SprachauBerungen erkannt werden, die mit Gerauschen behaftet sind, fur weiche bereits Markov- 
is Modelle vorhanden sind. Fur den Fall, daB in dem zu erkennenden Eingangssignai ein Gerausch vorhanden ist. 
welches nicht katalogisiert ist. mussen zusatzliche MaBnahmen durchgefuhrt werden. 

Zur Losung dieses Problems ist eine zusatzliche sogenannte spektrale Subtraktion vorgesehen. Hierzu sind 
zusatzhche mit Vektorquantisierung trainierte Modelle von moglichen Gerauschtypen erforderlich. Es wird 
dann die sukzessive Vektorquantisierung-Rahmenstorung Qber einen TiefpaB gefiltert und ein Vergleich durch- 
20 gefuhrt. Damit wird erreicht. daB ein moglichst ahnliches Gerausch erkannt wird, welches vom Eingabesignal 
nach dessen Vektorquantisierung subtrahiert wird. Das daraus resultierende Signal wird dann einem weiteren 
speziellen Vektorquantisierer zugefuhrt. womit eine reine Sprache reprasentiert werden soil weiche dann mit 
Markov-Modellen der remen Sprache verglichen wird. Bei einem derartigen Verfahren ist eine groBe Speicher- 
kapazitat erforderlich. und die Rechnerleistung muB relativ hoch sein. 
25 Ausgehend vom vorgenannten Stand der Technik besteht die Aufgabe der Erfindung darin. ein Verfahren 
anzugeben. mit dem bei relativ geringem Speicher und Rechneraufwand zunachst ein Gerausch eindeutig oder 
annahernd bestimmt werden kann. Mit dem dabei erzielten Ergebnis soil die Spracherkennung optimiert werden 
konnen. 

Zur Losung dieser Aufgabe ist eine Merkmaiskombination vorgesehen. wie sie im Patentanspruch I angege- 
30 ben ist. ^ ^ ^ 

Damit wird in vorteilhafter Weise erreicht. daB von jedem Storgerauschtyp lediglich eine Tabelle iiber die 
Haufigkeitsverteilung von Merkmalsvektoren gespeichert sein muB. Das Vergieichen einer vom aktuell eingege- 
benen Signal erstellten Haufigkeitsverteilungs-Tabelle der dabei ermittelten Merkmalsvektoren mit gespeicher- 
ten Vergleichstabellen nimmt wenig Rechnerleistung in Anspruch. Das beim Erkennen eines Storgerauschtyps 
35 auftretende Signal kann auBer zur Spracherkennung auch fur andere Schaltbefehle benutzt werden. 

Em Ausfuhrungsbeispiel der Erfindung wird nachfolgend anhand von Zeichnungen naher erlautert. 

Es zeigt Fig. 1 ein Blockschaitbild fur das Trainieren und Erkennen von Storgerauschtypen 

Fig. 2 ein Blockschaitbild einer Anordnung zur Erkennung von gestorter Sprache unter Verwendung von 
mehreren CodebQchern 

40 In der Fig. 1 ist eine Anordnung dargestellt. die sowohl zum Trainieren von Sprach- und Gerauschmodellen 
dient und auch zum Erkennen von Sprache und Gerauschen geeignet ist. Um dies zu ermoglichen. wird zunachst 
ungestorte Sprache Spr von einem Mikrofon M aufgenommen und einer Sprachanalyseeinheit SA zugefuhrt 
port werden einzelne Zeitabschnitte gleicher Lange in sogenannte Merkmalsvektoren MV uberfuhrt. Ober 
einen Vektorquandsierer VQ werden aus diesen Merkmalsvektoren MV die Codebuchvektoren CVl bis CVm 

45 fur das Standardcodebuch SCB trainiert und dort eingetragen sowie jeweils mit einem Index 1 1 bis Im versehen. 
Wenn auf diese Weise ein Standardcodebuch SCB mit ungest5rter Sprache trainiert worden ist, so sind darin 
Codebuchvektoren CVl bis CVm enthalten. die jeweils ihren zugeordneten Index 11 bis Im haben. Danach kann 
damn begonnen werden. SprachauBerungen Spr zusammen mit Storgerauschtypen SGI bis SGn uber das 
Mikrofon M einzugeben. Die vom Mikrofon M aufgenommenen Signale werden von der Sprachanalyseeinheit 

50 SA, wie zuvor bereits beschrieben worden ist. in Merkmalsvektoren MV aberfuhrt und dem Vektorquantisierer 
VQ zugefuhrt Der Vektorquantisierer VQ vergleicht nun alle Codebuchvektoren CVl bis CVm mit dem gerade 
anstehenden Merkmalsvektor MV. Dabei wird herausgefunden. welcher Codebuchvektor CVl bis CVm dem 
angebotenen Merkmalsvektor MV am ahnlichsten ist. Der dazugehorige Index, z. B. 12 gelangt dann in eine 
Erfassungseinrichtung EE und wird dort zwischengespeichert. Dies geschieht nacheinander mit alien Merkmals- 

55 vektoren MV, wobei in der Erfassungseinrichtung EE jedem Index zugeordnet die Haufigkeit seines Auftretens 
gespeichert wird. Auf diese Weise entsteht eine Zahlenreihe, die fur jeden einzelnen Index II bis Im angibt. wie 
oft er wahrend der Eingabe der mit einem Storgerauschtyp, z. B. SGI. behafteten Sprache Spr aufgetreten ist. 
Diese Zahlenreihe steilt eine Haufigkeitsverteilung der einzelnen Merkmalsvektoren MV dar, weiche fur den 
betreffenden Storgerauschtyp SGI als charakteristische Haufigkeitsverteilung PRl in einem Indexspeicher ISP 

60 eingetragen wird. Auch fur die ungestorte Sprache Spr kann auf diese Weise eine Haufigkeitsverteilung PRO im 
Indexspeicher ISP vorhanden sein. Der Indexspeicher ISP weist Bereiche. beispielsweise Zeilen auf, die jeweils 
einem Storgerauschtyp SGI bis SGn und auch der ungestorten Sprache Spr zugeordnet sind, in denen jeweils 
die Haufigkeitsverteilungen PRO bis PRn abgelegt sind 

Mit dem Inhalt dieses Indexspeichers ISP ist es nun moglich. einen Storgerauschtyp SGI bis SGn zu erkennen. 

65 Zu diesem Zweck wird eine SprachauBerung Spr zusammen mit einem unbekannten Storgerauschtyp SGu vom 
Mikrofon aufgenommen und der Sprachanalyseeinheit SA zugefuhrt Die dabei entstehenden Merkmalsvekto- 
ren MV werden nun durch den Vektorquantisierer VQ mit alien im Standardcodebuch SCB vorhandenen 
Codebuchvektoren verglichen. Die dabei sich ergebenden Indizes II bis Im von dem jeweils ahnlichsten Code- 



OOCID: <D£ 4325404A1 



DE 43 25 404 Al 



buchvektor CV werden in der Erfassungseinrichtung EE zwischengespeichert, wobei ermittelt wind, wie haufig 
jeweils ein Index 1 aufgetreten ist. Die dabei sich ergebende Haufigkeitsverteiiung PT wird einem Vergieichs- 
rechner VGR angeboten, weicher die Haufigkeitsverteiiung PT mit alien im Indexspeicher ISP befindlichen 
Haufigkeitsverteilungen PRO bis PRn vergieicht. Bei diesem Vorgang wird vom Vergleichsrechner ein Abwei- 
chungswert d ermittelt, der sich wie folgt berechnet: 



d(PR(x) ,Pt(x) ) = 2 PT(Xi)ld ^ 

i ^R(xi) 
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Wenn sich bei dieser Gegeniiberstellung der Haufigkeitsverteiiung f*T von Indizes aus den aktuellen Merk- 
malsvektoren MV und den im Indexspeicher ISP befindlichen Haufigkeitsverteilungen PRO bis PRn ein Abwei- 
chungswert d ergibt, der ein Minimum aufweist, so hat eine Storgerauscherkennung SGE stattgefunden. Der 
Vergleichsrechner VGR stellt dabei fest, bei weicher im Indexspeicher ISP befindlichen Haufigkeitsverteiiung 15 
PRO bis PRn sich dieser minimale Abweichungswert d ergeben hat. Daraus resultiert die Beschaffenheit des 
Signals fur die Storgerauscherkennung SGE, welches angibt, um welchen Storgerauschtyp SGI bis SGn es sich 
handelt. Die Storgerauscherkennung SGE kann in Form eines binar kodierten Wortes ausgegeben werden, 
welches direkt als Schalt- oder Ansteuerbefehl verwendet werden kann. 

In der Fig, 2 ist eine Anordnung dargestelU, bei der mehrere Codebucher SCB, CBl bis CBn verwendet 20 
werden. Diese Anordnung dient dazu, eine Spracherkennung zu optimieren, wenn bekannte oder unbekannte 
Stdrgerausche vorhanden sind. Das Mikrofon M nimmt die SprachauBerung Spr zusammen mit bekannten 
Storgerauschen SGI bis SGn oder unbekannten Storgerauschen SGu auf und gibt sie an die Sprachanalyseein- 
heit SA ab. In der Sprachanaiyseeinheit SA entstehen Merkmalsvektoren MV. die einem Vektorquantisierer 
zugefuhrt werden. Der Vektorquantisierer VQ ist mit einem Codebuchmuitiplexer CBM verbunden, weicher 25 
durch das Storgerauscherkennungssignal SGE eingestellt wird. Damit wird gezielt dasjenige Codebuch SCB, 
CBl bis CBn angesteuert, welches fur den erkannten Storgerauschtyp zustandig ist. Selbstverstandlich mOssen 
die fCir verschiedene Storgerauschtypen SGI bis SGn vorhandenen Codebucher CBl bis CBn vorher trainiert 
worden sein. FQr die ungestorte Sprache Spr ist das bereits beschriebene Standardcodebuch SCB vorhanden. 
Der Storgerauschtyp SCO entspricht demnach einer ungestorten Spracheingabe Spr. In einer Auswerteeinrich- 30 
tung AE werden dann diejenigen Codebuchvektoren CV aus dem betreffenden Codebuch CBl bis CBn oder 
auch SCB herausgefunden, welche den vom Eingabesignal gebildeten Merkmalsvektoren MV am ahnlichsten 
sind um ein Spracherkennungssignal SE zu erhalten. Bei der in Fig. 2 dargestellten Anordnung sind selbstver- 
standlich die funktionsgleichen Komponenten Sprachanaiyseeinheit SA, Vektorquantisierer VQ sowie das Stan- 
dardcodebuch SCB mit den in der Fig. 1 dargestellten gleichartigen Einrichtungen ideniisch. 35 

Mit der in Fig. 2 dargestellten Anordnung ist es also moglich, fur eine optimaie Spracherkennung gezielt eines 
von mehreren vorhandenen Codebuchern SCB, SGI bis SGn und den jeweils dazu gehorenden diskreten 
Markov- Modellen (HMMS, HMMl bis HMMn) anzusteuern. Hierzu dient das Storgerauscherkennungssignal 
SGE, welches den Codebuchmuitiplexer CBM so einstellt, daB der Vektorquantisierer VQ mit einem der 
Codebucher SCB, CBl bis CBn verbunden wird. Dabei konnen auch bei einem unbekannten Storgerausch SGu. 40 
wofur kein Codebuch besteht, bessere Ergebnisse bei der Spracherkennung SE erzielt werden. 

Das Storgerauscherkennungssignal SGE kann auch dazu verwendet werden, die betreffende Storgerausch- 
quelle zumindest voriibergehend abzuschalten. So ist es beispielsweise moglich, auf Grund des erkannten 
Storgerauschtyps SGI bis SGn mit entsprechenden elektrischen oder elektronischen Schalteinrichlungen einen 
Liifter auszuschalten oder ein Fenster bzw. eine Tur zu schlieBen. Das Storgerauscherkennungssignal SGE kann 45 
auch dazu dienen, irgendwelche Einrichtungen zu uberwachen, welche Gerausche von sich geben und dabei 
ihren Betriebszustand erkennen lassen. Es kann also erkannt werden, ob ein wichtiges elektrisches oder eiektro- 
nisches Gerat in Betrieb ist oder nicht. Hieraus konnten Alarmmeldungen abgeleitet werden. wenn z. B. ein 
bestimmter Gerauschtyp von seinem Sollwert abweichL AuBerdem kann eine Spracherkennung SE noch weiter 
verbessert werden, wenn Storgerauschtypen SGI bis SGn eliminiert worden sind und eine nahezu ungestorte 50 
Sprache Spr ausgewertet werden kann. 



Patentanspruche 

1. Verfahren zum Ermitteln und Klassifizieren von Storgerauschtypen unter Anwendung von fur die 55 
Sprachanalyse bekannten Verfahren, wobei in einer Trainings- oder Lernphase Referenzmuster gebildet 
werden, die akustisch eingegebene Signale beschretben und in einem Codebuch abgespeichert werden, um 
als Grundlage zur spateren Erkennung dieser Signale zu dienen, 
dadurch gekennzeichnet, 

daB zunachst ein Standardcodebuch (SCB) erstellt wird, welches die Referenzmuster von SprachauBerun- so 
gen (Spr), die ohne Storgerausch (SGO) eingegeben und trainiert wurden, in Form von mit Indizes (It bis Im) 
versehenen Codebuchvektoren (CBVl bis CBVm) enthalt, 

daB danach die SprachauBerungen (Spr), ohne und mit verschiedenen Storgerauschtypen (SGO bis SGn) 
uberiagert, einzeln verarbeitet werden, wobei von den jeweiligen Merkmalsvektoren (MV), die durch 
Vektorquantisierung (VQ) mit dem Standardcodebuch (SCB) resultierenden Haufigkeitsverteilungen (PRO 65 
bis PRn) der Indizes (I) durch eine Erfassungseinrichtung (EE) ermittelt und in einem Indexspeicher (ISP) 
abgespeichert werden, 

daB nach AbschluB der Trainingsphase von aktuell eingegebenen SprachauBerungen (Spr), die mit einem 
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zunachst unbekannten Stdrgerauschtyp (SGu) behaftet sind, Merkmalsvektoren (MV) gebildet werden und 
die Haufigkeitsverteilungen (FT) der Indizes (I), die aus der Vektorquantisierung (VQ) mil dem Standardco- 
debuch (SCB) resultieren, ebenfalls ermittelt werden, 

daB dann diese Haufigkeitsverteilung (FT) mit alien im Indexspeicher (ISP) abgelegten Werten der jeweils 
einem Storgerauschtyp (SGO bis SGn) zugeordneten Haufigkeitsverteilungswerten (PRO bis PRx) vergli- 
chen wird, indem in einem Vergleichsrechner (VGR) ein Abweichungswert (d) durch Summenbildung 
errechnet wird, 

und daB der gesuchte Storgerauschtyp (z. B. SGI) dann gefunden ist. wenn dieser Abweichungswert (d) 
einen Extremwert hat. 

2. Verf ahren nach Anspruch 1 , dadurch gekennzeichnet, 

daB nach dem Ermitteln eines Storgerauschtyps (z. B. SGI) iiber einen Codebuchmultiplexer (CBM) gezielt 
ein dafQr vorher trainierter Hidden-Markov-Spracherkenner mit an den Storgerauschtyp (SGI) angepaB- 
ten Codebuch (CBl) und Modellen (HMMl) angesteuert wird, wodurch eine genauere Spracherkennung 
(SB) ermoglicht wird. 

3. Verf ahren nach Anspruch 1, dadurch gekennzeichnet. 

daB aufgrund des erkannten Storgerauschtyps (z. B. SG2) SchaltmaBnahmen durchfuhrbar sind. die eine 
Beseitigung oder Reduzierung der Wirkung dieser Storgerauschqueile bewirken konnen. 

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, 

daB nach der Eliminierung eines StdrgerSuschtyps (z. B. SG2) erneute Spracheingaben und Berechnungen 
vorgenommen werden, wenn dies zur Ermittlung von weiteren Storgerauschtypen (SG) oder zur besseren 
Spracherkennung (SE) erforderlich ist. 
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